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【摘要 】 


本 研究 概述 了 在 初级 卫生 保健 领域 内 设计 和 开发 有 效 可 靠 问 卷 的 统计 方法 


和 实用 步 又。 回顾 了 一 系列 关于 问卷 编制 和 量 表 设 计 的 研究 ， 并 制定 了 一 套 在 初级 保 


健 领域 内 量 表 设计 的 标准 流程 。 


该 流程 涉及 量 表 设计 过 程 中 关键 的 实用 步骤 以 及 统计 


学 方法 ， 并 通过 以 往 该 领域 内 的 相关 研究 案例 加 以 说 明 。 我 们 建议 初级 卫生 保健 问卷 


的 七 步 编制 方法 如 下 : (1) 定义 测量 的 构想 ; (2) 


生成 条 目 池 ; G) 选择 评分 系统 


和 回答 格式 ; (4) 预测 试 〈“ 评 估 内 容 效 度 和 表面 效 度 等 ) ; 5) 通过 项 目 分 析 剔 除 条 
H; (6) 量 表 的 初次 评价 , 包括 量 表 的 信 效 度 评价 ,以 及 因素 分 析 或 Rasch 分 析 ; (7) 


设计 类 研究 应 严格 按照 量 表 编 制 的 标准 步骤 ,综合 使 月 


量 表 的 再 次 评价 ， 重 新 检验 量 表 的 性 质 ， 包 括 重 测 信 度 和 结构 效 度 。 总 的 来 说 ， 量 表 


日 Rasch 模型 和 因素 分 析 的 方法 ， 


将 会 使 测量 的 结果 更 加 客观 。 
【关键 词 】 初级 保健 量 表 设 计 ; 因素 分 析 ; Rasc 
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[ Abstract] This study outlines statistical methods and practical steps for the design and 
development of valid and reliable questionnaires within the primary health care domain. A 
series of studies on questionnaire development and scale design are reviewed and a standard 
process for scale design within the primary care domain is developed. The process addresses 
key practical steps in the scale design process as well as statistical methods, and is 
illustrated by examples from previous relevant studies within the field. We suggest the 
following seven-step approach to primary health care questionnaire development: (1) 
defining the conceptions to be measured; (2) generating the pool of items; (3) selecting the 
scoring system and response format; (4) pretesting (assessing content validity and face 
validity, etc.); (5) eliminating items by item analysis; (6) initial evaluation of the scale, 
including reliability evaluation of the scale, and factor analysis or Rasch analysis; (7) 
re-evaluation of the scale, which reexamines the nature of the scale, including retest 


reliability and construct validity. In general, scale design type of studies should strictly 


ChinaXiv 合 作 期 刊 


follow the standard steps of scale development, and the integrated use of Rasch model and 
factor analysis will make the results of measurement more objective. 


[Key words] primary care; scale devolpment; factor analysis; Rasch model 
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世界 卫生 组 织 CWHO) 在 1977 年 第 30 届 世 界 卫生 大 会 上 提出 “人 人 享有 健康 
的 宏伟 目标 , 并 指出 初级 卫生 保健 是 实现 这 一 目标 的 基本 途径 和 关键 叫 。 全 科 医 生 作 为 
初级 保健 服务 的 主要 提供 者 ， 需 要 对 来 访 者 的 特质 做 出 准确 的 判断 ， 才 能 给 出 更 为 合 
理 的 建议 。 而 量 表 作 为 一 种 测量 受 测 者 某 一 特质 的 量具 已 被 广泛 运用 于 社会 科学 和 医 
学 当中 ， 在 初级 保健 领域 内 进行 量 表 设计 与 开发 有 利于 帮助 研究 者 或 全 科 医 生 测 量 出 
被 试 某 一 特质 的 程度 。 

然而 ， 量 表 的 设计 与 开发 涉及 到 多 个 复杂 且 耗 时 的 步 又， 这 些 程序 可 能 会 令 人 望 
而 却步 并且 通常 会 忽略 其 中 的 部 分 程序 中 。 这 就 造成 了 目前 量 表 设 计 领 域内 问题 的 出 
现 ， 如 一 项 使 用 问卷 评估 运动 员 和 教练 的 营养 态度 和 营养 知识 的 研究 发 现 ， 大 约 70% 
的 纳入 研究 使 用 了 效 度 和 可 靠 性 未 知 的 工具 ，67% 使 用 了 未 经 过 验证 的 工具 B]。 陈 文 
雄 编制 的 孤独 症 得 查 量 表 中 个 别 项 目的 信 效 度 较 差 , 但 仍然 保留 在 正式 量 表 中 内 。 这 些 
未 经 信 效 度 验 证 或 信 效 度 较 差 的 量 表 会 严重 限制 结论 的 得 出 ， 甚 至 会 起 到 负面 作用 。 
因此 ， 目 前 急需 能 够 指导 初级 保健 领域 内 量 表 设 计 研 究 的 标准 流程 。 除 此 之 外 ， 我 们 
发 现 ， 初 级 保健 领域 内 的 量 表 设 计 研究 绝 大 多 数 是 在 经 典 测量 理论 的 框架 之 下 进行 的 ， 
这 一 技术 对 于 量 表 心 理 测量 学 特性 的 验证 是 至 关 重 要 的 ， 但 由 于 经 典 测 量 理 论 的 固有 
缺陷 ， 往 往 不 能 保证 测量 的 客观 性 。Rasch 模型 的 兴起 为 这 一 问题 提供 了 很 好 的 解决 方 
式 ，Rasch 模型 以 自然 科学 领域 内 的 客观 测量 当 作 标杆 , 为 社会 科学 领域 内 的 测量 建立 
起 一 套 客观 标准 , 以 确保 测量 所 提供 的 信息 更 为 客观 和 可 靠 品 。 

基于 此 ， 本 研究 将 从 经 典 测量 理论 和 Rasch 模型 两 个 角度 来 总 结 目前 国内 外 初级 
卫生 保健 领域 内 常用 的 问卷 编制 和 量 表 设 计 方 法 ， 通 过 对 有 具体 步 又 和 统计 方法 的 阐述 
帮助 该 领域 内 的 研究 者 更 好 地 开展 研究 。 
2 实用 步骤 与 统计 方法 
2.1 定义 测量 的 构 念 

在 初级 保健 领域 内 进行 量 表 开 发 ， 其 中 最 重要 的 一 步 就 是 对 所 需要 测量 的 构 念 进 
行 准确 、 概 括 的 定义 。 定 义 中 既 需 要 解释 所 要 测量 构 念 的 内 涵 和 外 延 ， 还 需要 解释 这 
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一 构 念 的 结构 是 什么 。 这 种 定义 通常 由 经 典 教材 、 指 南 或 该 领域 权威 专家 给 出 ， 也 可 
以 是 基于 大 量 文献 和 调查 总 结 出 来 。 前 者 在 临床 较为 常用 ， 为 进一步 扩展 相关 方法 学 
YH, 我 们 以 基于 大 量 调查 和 专家 访谈 确立 定义 为 例 。 例 如 在 Wang 等 人 的 研究 中 使 用 
的 就 是 Weiss-Laxer 等 人 基于 大 量 调查 和 专家 访谈 确立 的 定义 : D 研究 者 首先 联系 
知名 的 家 庭 健康 领域 的 研究 人 员 组 成 专家 小 组 ， 由 研究 执行 者 组 成 领导 小 组 ， 共 同 明 
和 了 专家 访谈 的 最 终 目标 ;' (2) 通过 第 一 轮 专家 咨询 ， 专 家 组 提出 并 共同 修改 “家 庭 
健康 ”的 概念 ， 由 领导 小 组 将 概念 划分 为 六 个 不 同 的 领域 ，(3) 专家 进一步 确认 各 个 
领域 的 内 容 和 包含 的 概念 ， 并 按照 重要 性 和 可 行 性 程度 进行 划分 。 最 终 得 出 家 庭 健康 
的 定义 : 它 是 家 庭 单位 层面 的 资源 ， 从 每 个 家 庭 成 员 的 健康 、 他 们 的 互动 和 能 力 ， 以 
及 家 庭 的 身体 、 社 会 、 情 感 、 经 济 和 医疗 资源 的 交叉 点 发 展 而 来 {人 ,并 在 量 表 编 制 过 程 
中 选用 重要 的 四 个 因素 : 家 庭 /社会 /情感 健康 过 程 、 家 庭 健康 生活 方式 、 家 放 健 康 资源 
和 家 庭 外 部 社会 支持 。Weiss-Laxer 等 人 在 研究 开始 前 界定 了 构 念 的 内 涵 ， 其 中 包含 了 
想 要 去 测量 的 家 庭 健康 的 确切 主题 ， 同 时 也 涵盖 了 家 庭 健康 的 相关 维度 ， 为 研究 的 顺 
利 推进 商定 了 基础 ， 其 方法 值得 研究 人 员 学 习 。 研 究 者 也 可 以 根据 定义 来 确定 问卷 的 
初始 维度 和 预期 目的 ， 使 得 初始 测试 尽 可 能 多 样 化 。 

2.2 生成 条 目 池 

在 完成 测量 构 念 的 定义 后 ， 研 究 者 就 开始 制作 初始 维度 的 条 目 池 。 代 表 同 一 维度 
的 条 目 池 要 尽 可 能 见 余 ， 以 确保 最 后 能 够 符合 预期 条 目 ， 同 时 避免 在 后 期 数据 处 理 过 
程 中 删 减 条 目 造 成 的 条 目 数 不 够 等 问题 。 一 般 来 说 ， 研 究 者 所 编制 量 表 的 条 目 至 少 要 
达到 最 终 保留 版 本 的 2 倍 。 

条 目 池 的 生成 通常 是 以 经 典 教 材 、 指 南 、 文 献 和 理论 为 指导 ， 结 合 临床 问题 的 前 
人 研究 或 已 有 问卷 ， 通 过 对 已 有 资料 的 评估 ， 编 制 出 能 够 测量 各 维度 特征 的 问题 。 因 
此 ， 在 编制 量 表 条 目 池 之 前 一 定 要 明确 各 维度 的 定义 ， 根 据 各 个 维度 的 定义 来 编制 符 
合 其 含义 的 问题 。 例 如 在 高 志 强 等 人 编制 成 功 恐 惧 问卷 时 ， 通 过 对 已 有 研究 的 整理 与 
分 析 ， 总 结 出 了 成 功 八 惧 的 结构 维度 分 别 是 生活 品质 、 家 庭 幸 福 、 喘 体 健 康 、 心 理 健 
康 、 人 际 关 系 和 恋爱 择偶 ， 再 围绕 这 六 个 维度 编制 了 最 初 的 条 目 池 并 针对 施 测 人 和 群 进 
行 了 初始 化 的 结构 化 访谈 和 半 开 放 式 的 问卷 调查 人 7。 

在 量 表 设 计 的 语言 方面 也 要 遵循 一 定 的 原则 ， 在 编制 量 表 条 目 时 使 用 的 语言 应 尽 
可 能 简单 明了 ， 避 免 使 用 专业 性 词汇 和 双重 否定 ， 因 为 它们 常常 会 让 受 访 者 感到 困惑 
各 ; 条 目的 语言 尽量 避免 涉及 社会 禁忌 和 个 人 隐私 ， 防 止 出 现 受 访 者 的 抵触 情绪 ， 干 
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符合 受 测 者 所 处 地 区 的 文化 规范 ， 必 要 时 需 进 行 
， 在 完成 对 量 表 内 容 的 制定 后 还 邀请 中 文系 专家 
和 歧义 的 条 目 ， 得 到 初始 量 表 。 


扰 研 究 ， 还 要 注意 语言 的 使 用 一 定 
调整 。 在 成 功 恐 惧 问 卷 的 最 初 编制 
对 量 表 语 言 进行 评估 ， 排 除 语意 重 
2.3 选择 评分 系统 和 响应 格式 
2.3.1 响应 格式 

响应 格式 选择 通 芝 与 条 目 池 的 生成 同步 进行 ， 研 究 者 需要 根据 实际 情况 和 调查 的 
有 具体 目的 来 选择 适合 该 研究 的 评分 系统 和 响应 格式 。 

首先 ， 研 究 者 需要 确定 所 编制 条 目 池 中 每 个 问题 的 响应 格式 ， 是 采用 开放 式 提问 
的 方式 还 是 封闭 式 提问 。 开 放 式 提问 要 求 施 测 对 象 提 供 每 个 问题 的 答案 ， 这 对 于 受 访 
者 和 研究 人 员 来 说 更 难 回 答 , 同时 给 出 的 答案 往往 也 是 多 样 的 , 不 利于 进行 编码 计 分 。 
开放 式 提问 的 好 处 是 可 以 为 研究 者 提供 更 多 的 思路 ， 一 般 更 适合 在 初始 调查 中 使 用 ， 
而 在 一 个 成 型 的 量 表 中 使 用 的 并 不 多 。 因 此 ， 在 初级 保健 领域 内 的 研究 中 ， 使 用 较 多 
的 仍然 是 封闭 式 提 问 。 封 闭 式 提问 会 给 出 具体 的 选项 ， 对 施 测 对 象 来 说 更 容易 回答 ， 


要 
中 
复 


但 这 也 会 造成 其 他 的 问题 ， 如 答案 是 设置 单 选 还 是 多 选 ? 给 出 的 可 选择 的 答案 不 同 是 
否 会 影响 测量 的 结果 呢 ? 这 在 量 表 设 计 类 研究 中 都 是 不 可 忽略 的 。 


在 绝 大 多 数量 表 设 计 类 研究 中 使 用 较 多 的 是 单 选 题 ， 但 是 多 项 选择 仍然 是 有 价值 
的 ， 因 为 很 多 时 候 一 个 问题 并 不 会 只 有 一 个 答案 ， 而 多 项 选择 往往 能 够 提供 关于 该 问 
题 更 多 的 信息 。 孙 昕 去 等 人 (2022) 利用 项 目 反 应 理论 开发 出 了 评价 糖尿 病 功 能 性 健 
康 素养 量 表 ， 该 量 表 一 共 包含 30 道 题 ， 其 中 有 三 道 是 多 选 题 ， 它 们 提供 了 与 糖尿 病 功 
能 性 健康 素养 有 关 的 更 多 的 信息 。 在 评分 方面 ， 孙 昕 法 等 人 将 多 选 题 按 选项 数量 每 答 
对 1 个 选项 计 相 应 分 值 ， 答 不 知道 计 0 分 名 ,但 这 种 计 分 方式 较为 复杂 ,同时 也 会 受到 
选项 设置 的 干扰 。 一 般 来 说 ,“ 选 择 所 有 正确 的 选项 ”的 问题 可 能 难以 “编码 ”和 评分 ， 应 
尽 可 能 避免 外 。 此 外 ， 在 封闭 式 提问 设置 选项 时 , 仍然 需要 加 以 注意 。 例 如 在 量 表 选 项 
设置 中 是 否 应 该 加 入 “不 确定 ”这 一 选项 ，Alsaffar 在 翻译 营养 知识 问卷 时 就 使 用 了 “不 
确定 ”这 一 选项 四， 但 Folasire 等 人 对 此 提出 了 质疑 00， 他 们 认为 “不 确定 ”选项 容易 
导致 那些 对 选项 有 很 好 了 解 的 人 在 信心 低下 时 避免 回答 或 因为 懒惰 而 选择 逃避 。 除 此 
之 外 ， 研 究 者 还 应 避免 将 “其 他 ”类 别 作为 选项 ， 当 然 只 有 在 仔细 确定 了 几乎 所 有 可 
能 存在 的 潜在 类 别 之 后 ， 才 能 做 出 不 提供 “其 他 ”选项 的 决定 。 

2.3.2 评分 系统 
在 一 份量 表 中 , 评分 系统 的 选择 往往 需要 结合 具体 的 条 目 来 进行 设置 。 一 般 来 说 ， 
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当 问 题 回答 有 正 误 之 分 时 ， 只 需 将 正确 的 选择 都 记 1 分 ， 而 将 错误 的 选择 记 0 分 ， 然 
而 在 绝 大 多 数 时 候 ， 受 测 对 象 很 难 做 到 绝对 的 二 分 ， 因 此 在 实际 研究 中 ， 最 常用 的 评 
分 系统 是 李 克 特 式 评 分 系统 ， 如 李 克 特 式 5 点 计 分 、7 点 计 分 、9 点 计 分 等 。 例 如 胡 海 
利 等 人 在 编制 中 学 生 心 理 复原 力量 表 时 , 便 采用 的 五 级 计 分 法 , 以 “从 不 ”、“ 偶 尔 ”、 
“有 时 ”、“ 经 常 ” 和 “总 是 ”5 个 等 级 进行 程度 评定 ， 分别 记 为 1, 2, 3,4 和 5 ap 
而 在 涉及 态度 的 研究 中 ,研究 者 更 倾向 于 使 用 “非常 不 同意 ”、“ 有 些 不 同意 ”、“ 中 
立 ”、“ 有 些 同意 ”和 “非常 同意 ”5 个 等 级 ， 计 分 仍然 是 从 1 到 5。 这 两 者 均 属于 李 
克 特 式 五 点 计 分 ， 而 七 点 计 分 和 九 点 计 分 则 是 在 五 点 的 基础 上 进一步 将 选项 细 分 。 那 
么 在 研究 中 该 如 何 选择 李 克 特 式 量 尺 点 数 〈 如 5 点 计 分 、7 点 计 分 、9 点 计 分 等 ) 呢 ? 
Berdie (1986) 认为 当 调 查 的 对 象 具有 较 多 的 知识 和 较 高 的 兴趣 时 ， 量 表 则 需要 更 多 的 
态度 量 尺 点 数 ， 此 时 使 用 七 点 或 九 点 计 分 比 五 点 计 分 更 为 合适 ， 因 为 当 态 度量 尺 点 数 
越 少 ， 偏 态 程度 越 大 (34。 

此 外 ， 在 研究 过 程 中 ， 哪 怕 是 收集 了 数据 后 ， 不 同 量 尺 点 数 的 李 克 特 式 计 分 之 间 
仍然 可 以 转换 。 这 种 转换 是 通过 Rasch 模型 来 实现 的 ，Rasch 模型 可 以 系统 地 分 析 每 个 
选项 的 测量 特性 ， 通 过 绘制 选项 概率 曲线 (Category Probability Curve, CPC) 可 以 判断 是 
否 存在 选项 等 级 的 滥用 和 缺失 状况 03]。 以 2021 年 中 国家 庭 健康 指数 中 的 法 式 烟草 依赖 
评估 量 表 (FTND ) 为 例 作 图 ，FTND 的 条 目 1 内 容 如 下 : “您 早晨 醒 后 多 长 时 间 吸 第 
一 支 烟 ?60 分 钟 (Category0) ，31-60 分 钟 (Category1) ，6-30 分 钟 (Category2) ， 
<=5 分 钟 (Category3) ”。 图 1 为 条 目 1 的 选项 概率 曲线 图 ， 图 中 每 条 曲线 对 应 一 个 
选项 ， 横 轴 代 表 被 试 烟草 依赖 的 程度 (从 左 往 右 递增 )， 纵 轴 代 表 被 试 选择 的 概率 。 以 某 
位 烟草 依赖 程度 为 -4 的 被 试 为 例 ,他 选择 “Category0 ”的 概率 约 为 95%, 选 择 “ Category!” 
的 概率 约 为 5%, 选 择 其 他 选项 的 概率 接近 于 0。 因 此 ， 该 被 试 选择 “Category0” 的 可 能 
最 大 。 以 此 类 推 , 在 Category0 与 Category2 交点 左 侧 , 选择 “Category0” 的 概率 最 大 ; 
在 Category0 与 Category2 交点 和 Category2 与 Category3 交点 之 间 , 选择 “Category2” 
的 概率 最 大 ; 在 Category2 与 Category3 交点 右 侧 ， 选 择 “Category3 ”的 概率 最 大 。 我 
们 发 现 ,测量 过 程 中 “Category1? 选 项 的 使 用 率 偏 低 , 出 现 了 李 克 特 式 等 级 滥用 的 情况 。 
根据 Linacre 的 建议 ， 当 出 现 李 克 特 式 等 级 小 用时， 应 考虑 将 相应 的 选项 与 相 邻 的 选项 
进行 合并 04。 因 此 ， 这 里 可 以 考虑 将 Categoryl 与 Category2 合并 为 6-60 分 钟 。 但 合并 
选项 之 后 的 量 表 仍 需要 再 进行 检验 。 
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ICC plot for item Item1 


2.4 预测 试 


定性 预测 试 是 任何 


Latent Dimension 


图 1 FIND 的 条 目 1 的 选项 概率 曲线 图 


问卷 或 心理 测量 工具 开发 、 翻 译 或 修订 的 关键 阶段 。 选 取 小 样 


本 受 访 人 群 进行 小 范围 预测 试 ， 目 的 是 验证 目标 受众 人 群 是 否 理解 条 目 问题 与 选项 ， 
从 受 访 者 角度 评价 条 目 表述 是 否 有 歧义 ， 若 出 现 语义 理解 困难 、 框 架 不 清晰 等 问题 ， 
将 修改 条 目 后 进行 新 一 轮 预 测试 直至 确保 所 有 受 访 者 理解 条 目 含义 且 内 容 可 接受 05。 
预测 试 主 要 采用 便利 抽样 法 ， 尽 可 能 选择 30 份 或 以 上 样本 以 确保 数据 分 析 的 稳定 性 与 
可 靠 性 03， 并 对 目标 人 群 进行 问 卷 填 写 感 受 与 理解 度 调查 。 例 如 程 彦 如 等 人 在 编制 失 
能 老年 人 照顾 者 居家 照护 行为 量 表 时 ， 采 用 便利 抽样 选取 某 3 个 社区 的 102 名 失 能 
年 人 照顾 者 作为 预测 试 对 象 。 


onl 


预测 试 环节 中 需 进 


行 量 表 的 表面 效 度 的 测评 ， 即 从 受 访 对 象 角度 看 测评 工具 内 容 


是 否 与 测评 目的 一 致 ， 表 面 效 度 并 不 是 真正 的 效 度 指标 。 在 实际 应 用 中 ， 如 果 直 接 阅 


读 问卷 条 目 能 够 明显 觉 
人 员 洗 手 状况 的 问卷 中 


察 问 卷 的 测量 意图 ， 则 该 问卷 表面 效 度 较 高 。 例 如 ， 测 量 护理 


,涉及 洗手 次 数 、 时 长 以 及 方法 等 ,所 以 此 问卷 具备 表面 效 度 09。 


FEM BARE SUA, Fi 


究 者 想 要 考察 患者 关于 保健 领域 内 的 行为 情况 或 者 针对 某 一 病 


情 进行 详细 询问 ， 必 然 应 当 提 高 量 表 的 表面 效 度 ， 确 保 “ 所 答 即 所 问 ”; 然而 在 涉及 


个 人 隐私 方面 或 影响 社会 形象 的 问题 上 ， 表 面 效 度 过 高 可 能 会 导致 欺骗 和 隐瞒 行为 的 
出 现 ， 因 此 表面 效 度 的 设置 需要 依据 具体 研究 目的 而 设 定 。 
2.5 BURA SWRA H 
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在 初级 保健 领域 内 的 量 表 编制 过 程 中 ， 应 当 在 预测 试 实施 完成 后 对 其 进行 项 目 分 
析 ， 该 步骤 为 进一步 修订 量 表 提供 依据 ， 也 是 后 续 正 确 评 价 量 表 的 前 担 。 项 目 分 析 的 


实质 是 探究 每 个 


题 项 的 差异 ， 检 验 其 质量 ， 并 依据 


保障 项 目 之 间 的 


和 项 目 功 能 的 差异 三 


同 质 性 与 量 表 的 可 靠 性 。 
个 方面 考察 。 


2.5.1 项 目 难 度 


项 目的 难度 是 指 在 完成 测 
行 评估 的 一 个 指标 ， 作 答 正确 率 越 高 ， 难 度 越 低 。 


验 项 目 时 所 遇 到 的 困难 程度 ， 是 对 测试 者 的 作 管 情 况 i 


一 定 的 标准 对 其 进行 修订 或 剔除 ， 
研究 者 主要 可 以 从 项 目的 难度 、 


项 目 区 分 度 


设置 测验 难度 水 平 的 目的 是 在 于 通 


过 研究 者 开发 的 量 表 将 不 同 的 受 测 者 尽 可 能 区 分 3 
体现 量 表 的 鉴别 力 。 正 如 步骤 三 所 说 ， 
于 非 二 分 法 积分 项 目的 难度 可 以 采用 所 有 受 测 者 菜 一 项 目的 平均 得 分 与 该 题 


比 来 计算 难度 。 
反应 进行 


mh 


了 重 评 ， 并 考虑 是 否 删除 07。 
影响 ， 在 实际 操作 过 


程度 带 3 
的 难度 临界 值 。 


Rasch 模型 与 经 典 测量 理 #; 


新 编码 ， 换 算 成 男 一 种 比例 ， 


于 来 ， 最 大 程度 上 体现 受 
不 同 的 量 表 类 型 适 


测 者 的 差异 ， 
天 宜 设置 不 同 的 计 分 系统 ， 对 


目 满分 之 


比如 在 一 项 关于 大 学 生 健 康 素养 的 在 


寸 程 中 研究 者 应 当 考 虑 


耸 所 运用 的 方法 有 所 不 


可 比 性 特征 ， 


水 平 高 低 的 影响 。 


因此 对 于 测量 难度 这 一 
布 ， 即 抽样 的 人 群 在 选择 选项 时 时 不 受 
于 测量 题目 的 难度 分 布 。 


指标 该 模型 指 


因此 Rasch 测量 和 


个 体能 力 水 平和 题目 
项 目 难 度 水 平 的 人 -项 目 图 
该 图 可 知 , 图 中 的 黑 点 主要 位 于 0-2 之 间 , 这 


项 目 图 ,由 


难度 水 平 置 于 同一 个 Logit BR 


(Person-Item Map) , 


究 当 中 ， 研 究 者 将 多 项 选择 题 的 


对 于 正确 值 小 于 0.2 或 大 于 0.8 的 项 目 都 进行 
过 高 或 者 过 低 的 难度 值 都 会 给 


得 分 的 分 布 和 分 数 的 离散 
量 表 的 性 质 和 目的 ， 科 学 设置 合理 


同 , 它 主 要 强调 了 测量 的 客观 性 和 
题目 难度 必须 独立 于 样本 被 试 分 


题目 难度 的 影响 ， 同 时 个 体 的 能 力也 应 当 独 立 
题目 的 难度 不 随 着 被 试 样 本 的 变化 而 变化 ， 不 受 被 试 能 力 
能 够 提供 关于 个 体能 力 和 题目 难度 的 等 距 分 数 ， 将 


中 进行 对 比 , 刻画 被 试 能 力 水 平和 


见 图 2， 图 2 是 生活 满意 度量 表 的 人 - 


之 意味 在 生活 满意 度量 表 项 目 中 ， 


中 等 及 偏 高 水 平生 活 满意 度 的 被 试 者 提供 的 信息 量 最 大 ， 但 不 适用 于 用 来 评定 生活 满 


意 度 水 平 较 低 的 被 试 。 不 同 的 被 试 和 项 目 就 分 布 在 这 样 一 张 图 表 中 ， 可 为 研究 者 提供 
更 多 的 信息 。 如 果 研 究 者 计算 出 来 的 难度 阔 值 和 均值 围绕 在 0 附近 ， 这 就 表明 试题 的 
难度 适中 ， 如 惠 建 荣 等 人 关于 中 风 患 者 的 生活 质量 量 表 的 质量 分 析 中 ， 统 计 结 果 显 示 


所 有 条 目的 难度 阔 值 为 -0.32~0.67(M=0.00，SD=0.34)08]， 


都 处 于 中 等 水 平 ， 


较为 良好 。 如 果 在 


这 意味 着 所 有 条 目的 认可 度 


量 表 开发 过 程 当中 项 目 难 度 水 平 过 高 或 者 过 低 ， 


作 期 刊 
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则 说 明 该 题目 所 代表 的 行为 或 者 维度 出 现 频率 并 不 高 ， 或 对 于 被 试 来 说 过 难 ， 而 这 样 
的 量 表 往 往 只 有 在 针对 特定 人 群 〈《 过 高 或 过 低 水 平 的 被 试 ) 时 准确 度 更 高 。 


Person-ltem Map 


Person 
Parameter 
Distribution 
T T TT Tit T T 
itemi | © OO o 
1 2 3 4 
ltem2 ~ o o + ° © 
1 2 3 4 
ltem3 — o o + o o 
1 2 3 4 
ltem4 ~ o ° + o o 
1 3 4 
lem5 ~ o o 一 和 一 D o 
1 2 3 4 


Latent Dimension 


图 2 生活 满意 度量 表 的 人 -项 目 图 


2.5.2 项 目 区 分 度 

区 分 度 的 考察 目的 在 于 检验 设计 的 量 表 是 否 真正 能 将 两 类 不 同 的 人 区 分 开 来 ， 达 
到 研究 者 预先 的 设想 。 主 要 包括 鉴别 指数 法 、 相 关 法 和 CITC 法 。 

鉴别 指数 的 计算 方法 并 不 复杂 ,在 统计 好 所 有 受 测 者 的 总 分 后 按 分 数 高 低 依 次 排序 ， 
测量 学 上 一 般 以 前 后 27% 的 比例 划分 出 高 分 组 和 低 分 组 ， 对 两 组 人 各 题 的 得 分 进行 独 
立 样本 T 检验 ， 最 终 对 于 未 表现 出 显著 差异 的 题 项 单独 考虑 ， 必 要 情况 下 可 以 剔除 以 
保障 量 表 的 准确 性 。 或 可 以 选择 采用 计算 项 目 得 分 和 测验 总 分 的 相关 系数 (PT-mesure ) 
作为 区 分 度 指 标 ， 相 关系 数 越 大 区 分 度 则 越 高 ， 最 终 综 合 考量 是 否 剔除 相关 度 不 佳 的 
项 目 ， 矫 正 项 总 计 相 关 性 (Corrected Item-Total Correlation, CITC) 也 可 以 用 来 考察 量 
表 维 度 中 项 目 之 间 的 相关 性 , 如 果 大 于 0.5 则 说 明 该 题 项 与 其 他 项 之 间 有 着 较 高 的 相关 ， 
如 果 低 于 0.5 则 可 以 考虑 删除 该 项 目 后 观察 Cronbach a 系数 的 变化 ， 或 考虑 修改 该 项 
目 。 如 在 花 静 等 人 对 于 儿童 运动 发 育 的 研究 中 运用 鉴别 指数 的 方法 测量 各 个 项 目 之 间 ， 
高 分 组 低 分 组 的 得 分 差异 ， 结 果 表示 在 71 个 条 目 上 均 有 显著 差异 ， 因 此 在 该 阶段 保留 
TAA AO, 而 杨 振 等 人 在 对 老年 健康 促进 量 表 进行 信 效 度 检 验 时 ， 测 量 条 目 与 量 
表 总 分 的 相关 系数 处 于 0.406~0.752 之 间 PRYI， 旦 中 等 程度 相关 〈 临 界 值 为 0.3) ， 随 后 
结合 信 度 系数 对 每 个 条 目 进行 了 进一步 的 检验 。 

在 基于 项 目 反应 理论 提出 的 Rasch 模型 当中 ， 难 度 往 往 与 区 分 度 是 密 不 可 分 的 ， 


ut 


ml 


ninax iva (EBA FI 


在 中 等 难度 下 , 项 目的 区 分 度 往往 最 高 。 因此 , 项 目的 难度 也 可 以 通过 人 -项 目 图 看 出 。 
图 2 中 最 下 侧 为 Rasch 标尺 ， 从 左 到 右 测量 值 逐 渐 升 高 ， 对 于 每 个 被 试 而 言 ， 所 处 位 
置 越 靠近 右 端 ， 说 明生 活 满意 度 感受 越 高 。 图 中 条 形 高 度 表 示 位 于 这 一 位 置 被 试 的 数 
量 ， 被 试 分 布 越 集中 说 明 该 量 表 的 区 分 度 越 小 ， 分 布 越 分 散 说 明 量 表 的 区 分 度 越 大 。 
在 图 中 我 们 可 以 看 出 在 5 个 项 目 上 ， 被 试 的 掌握 水 平 基本 上 都 呈 偏 态 分 布 ， 并 集中 分 
布 在 0logit 到 2 logit 之 间 。 这 说 明 在 $ 条 项 目 中 ， 该 量 表 的 区 分 度 较 差 ， 在 区 分 生活 
满意 度 较 差 的 被 试 时 较为 困难 。 如 赵 福 菜 等 人 在 编制 奥 尔 维 斯 欺负 量 表 时 ,使 用 Rasch 
模型 发 现 难度 分 布 非常 集中 ， 导 致 量 表 对 不 同 霸 读 /被 霸 凌 程度 被 试 的 区 分 效果 较 差 ， 
尤其 难以 区 分 高 霸 凌 /被 霸 凌 群体 [1。 
2.5.3 项 目 功能 差异 
> 项 目 功能 差异 (Differential Item Functioning, DIF) 是 指 两 组 被 试 在 某 个 项 目 上 的 
©) 表现 差异 ， 代 表 了 项 目 对 不 同 的 被 试 有 不 同 的 统计 特性 ， 如 果 在 同一 项 目 上 正确 作答 
的 概率 不 同 ， 达 到 某 一 临界 值 ， 那 么 该 项 目 则 存在 偏差 ， 需 要 进一步 的 探究 差异 的 来 
源 20。 基 于 项 目 反 应 理论 的 Rasch 模型 倾向 于 运用 统计 检验 的 方法 计算 DIF， 同 时 随 
着 该 理论 模型 影响 力 的 进一步 扩大 ， 不 同 的 学 者 提出 了 不 同 的 计算 方法 。 通 过 运用 
Mantel-Haenszel (M-H 方法 ) 检验 法 检验 被 试 个 人 特征 变量 带 来 的 DIF， 当 差异 大 于 
0.5 H. p<0.05 IN UW Al Be FE he Ze), ERG A HS A) M-H 方法 进行 
DIF 检验 时 发 现 第 9 题 、 第 39 题 和 第 58 题 呈现 出 中 等 或 较为 严重 的 DIF 现象 R33。 也 
可 以 通过 Lord 卡 方 检验 法 、 运 用 R 语言 软件 进行 项 目 功能 差异 检验 ,分 析 结 果 中 X213 
为 项 目 功能 差异 指标 ， 某 一 项 中 X?13 的 大 于 0.05 说 明 存 在 DIFP), Ara BRAN GK [el BE DY 
用 Rasch 模型 分 析 Rosenberg 自尊 量 表 时 便 是 使 用 Lord 卡 方 检验 法 ， 结 果 发 现 项 目 1 
和 项 目 5 存在 功能 差异 ， 即 在 这 两 个 项 目 上 ， 人 性 别 差 异 导致 自尊 水 平 不 同 P31。 对 于 多 
级 计 分 题 也 可 以 使 用 方差 分 析 法 进行 检验 ， 比 如 在 世 卫 组 织 残疾 评估 计划 的 开展 过 程 
中 ， 发 现 不 同性 别 的 群体 之 间 项 目 难度 不 同 ， 研 究 者 采用 方差 分 析 ， 通 过 性 别 和 其 他 
有 可 能 产生 DIF 的 项 目 进行 对 比 ， 从 而 找 出 不 合适 的 项 目 ， 进 行 修改 [2 
值得 注意 的 是 , 项 目 分 析 的 三 大 方面 并 非 要 求 在 编制 量 表 时 全 部 使 用 , 而 是 根据 量 
表 的 特征 加 以 选择 量 表 是 单项 选择 还 是 多 项 选择 ? 是 二 分 法 还 是 多 级 计 分 ? 开发 
的 量 表 是 什么 性 质 的 ， 等 等 。 在 项 目 分 析 过 程 中 发 现 的 问题 项 是 否 吻 除 也 不 能 一 概 而 
， 简 单 的 删除 难度 过 大 、 区 分 度 不 良 或 拟 合 度 不 高 的 项 目 都 并 非 值 得 提倡 的 做 法 ， 
因为 过 于 完美 的 模型 难以 真实 存在 ， 它 只 是 一 种 理想 性 的 假设 与 指导 ， 应 当 结合 多 项 
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指标 的 综合 情况 进行 考虑 。 
2.6 量 表 的 初次 评价 
2.6.1 基于 经 典 测量 理论 的 初次 评价 

经 典 测量 理论 (Classical Test Theory, CTT) 也 被 称 作 真 分 数理 论 ，20 世纪 50 年 代 
趋 于 完善 ,该 理论 认为 测验 得 到 的 分 数 义 是 由 真 分 数 T 和 随机 误差 E 所 组 成 , 即 ,X=T+E， 
误差 E 的 平均 数 为 零 ，T 和 上 卫 之 间 的 相关 为 零 。 并 在 此 基础 之 上 ， 建 立 了 测验 项 目的 
测量 学 指标 ， 如 信 度 、 效 度 、 难 度 和 区 分 度 等 ， 并 以 此 筛选 测验 项 目 、 建 立 题库 和 构 
制 测 验 R27。 前 文中 已 经 对 如 何 利 用 难度 和 区 分 度 筛选 测验 项 目 做 出 了 详细 说 明 ， 本 节 


将 介绍 如 何 运用 经 典 测量 理论 来 完成 测验 的 初次 评价 ， 即 进行 探索 性 因素 分 析 和 信 效 


2.6.1.1 探索 性 因素 分 析 

探索 性 因素 分 析 (Exploratory factor analysis, EFA) 作为 一 种 经 典 测量 理论 技术 ， 
已 经 被 广泛 运用 于 初级 保健 领域 内 的 量 表 设 计 与 开发 之 中 。 探 索性 因素 分 析 主 要 是 通 
过 数学 的 方法 探索 量 表 中 的 变量 或 因素 ， 以 此 来 确定 量 表 的 具体 维度 和 每 个 项 目 归 属 
于 哪个 维度 。 接 下 来 ， 本 文 将 详细 介绍 探索 性 因素 分 析 的 过 程 。 我 们 认为 探索 性 因素 
分 析 中 应 该 包括 以 下 4 个 关键 步骤 ( 见 图 3) 。 


其 他 方法 


图 3 探索 性 因素 分 析 流 程 图 


(1) 确定 变量 及 样本 
确定 变量 及 样本 是 进行 数据 分 析 前 的 准备 工作 ， 这 对 于 整个 研究 来 说 是 至 关 重 要 
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的 。 该 阶段 要 求 研 究 者 根据 以 往 研 究 和 理论 尽 可 能 编制 或 收集 与 自己 研究 主题 相关 的 
条 目 ， 有 时 其 至 需要 包含 一 些 与 主题 无 关 的 条 目 。 因 为 在 经 过 探索 性 因素 分 析 的 筛选 
之 后 ， 剩 下 的 条 目 往 往 会 比 原 始 条 目 少 很 多 。 如 何 决定 条 目的 去 留 也 是 研究 者 需要 关 
注 的 问题 。 常 见 的 标准 有 因子 载荷 量 、 项 目 共 同 度 、 跨 因子 载荷 等 ， 通 常 认为 成 分 矩 
阵 中 项 目的 因子 载荷 量 >0.71 为 优秀 , >0.63 为 非常 好 , >0.55 为 好 , >0.45 为 一 般 , >0.32 
ABP), 项 目 共同 度 不 能 过 低 ， 一 般 认 为 项 目 共同 度 不 得 低 于 0.302; 同一 个 项 目 不 
能 在 两 个 因子 上 都 有 着 较 高 的 载荷 ， 如 陈 贵 等 人 剔除 了 在 不 同 因子 上 有 相近 的 载荷 且 
难以 解释 的 项 目 60。 在 做 因素 分 析 之 前 ， 还 需要 注意 样本 量 ， 因 素 分 析 的 样本 量 不 可 
太 低 ， 否 则 结果 并 没有 太 大 的 说 服 力 ，Corsuch 建议 样本 和 变量 比 为 5; 1， 同 时 样本 量 
不 能 低 于 100. Nunnally 则 推荐 样本 和 变量 比 为 10: 1B1。 


2 (2) 确定 是 否 可 以 进行 探索 性 因素 分 析 

探索 性 因素 分 析 的 目的 是 简化 数据 或 者 找 出 量 表 的 基本 数据 结构 ， 目 前 研究 者 普 
= 遍 采 用 主 成 分 分 析 法 来 进行 探索 性 因素 分 析 ， 因 此 在 进行 探索 性 因素 分 析 之 前 需要 确 
= 保 因素 分 析 的 理论 假设 和 统计 假设 得 以 满足 。 因 素 分 析 的 理论 假设 认为 这 组 变量 中 确 
N 实 存在 潜在 结构 ， 而 统计 假设 要 求 观测 变量 之 间 存 在 较 强 的 相关 性 。 因 此 ， 在 进行 探 
= 索性 因素 分 析 前 需要 确保 以 下 几 个 条 件 得 以 满足 : 项 目 间 相 关 性 大 于 0.3, Bartlett Bk 
> 形 检验 显著 〈p<0.05) 以 及 抽样 充分 性 (MSA) 的 Kaiser-Meyer-Oklin (KMO) 度量 至 


少 为 0.6 中 。 项 目 间 相 关 性 大 于 0.3 要 求 研究 者 需要 计算 所 有 题目 的 相关 性 ， 如 果 所 有 
= 或 大 部 分 相关 小 于 0.3 则 不 适合 做 探索 性 因素 分 析 。 球形 检验 和 抽样 充分 性 也 是 同样 的 


T À n tee be gee 
© 道理 ， 如 郭 静 在 修订 中 文 版 心理 脆弱 性 问卷 时 进行 了 Kaiser-Meyer-Oklin (KMO) 度量 


与 Bartlett 球形 检验 , 结果 显示 KMO=0.89, Bartlett 球形 检验 x2/d 广 25.31, p<0.001B2。 
需要 注意 的 是 ， 这 些 参数 合格 仅 代表 可 以 进行 因素 分 析 而 不 是 说 明 因素 分 析 结 果 较 好 。 

(3) 确定 因子 个 数 

确定 所 选 变量 的 因子 结构 ， 保 留 多 少 个 因子 是 探索 性 因素 分 析 中 非常 关键 的 一 步 ， 
抽取 过 少 或 过 多 都 会 造成 一 定 的 问题 ， 但 实证 研究 中 更 倾向 于 保留 较 多 的 因子 ， 因 为 
抽取 过 度 相 比 于 抽取 不 足 的 因子 载荷 估计 更 加 准确 。 因 此 研究 者 提出 了 多 种 检验 方法 
来 帮助 决策 ， 主 要 包括 以 下 三 种 : 口 特征 值 大 于 1， 特 征 值 大 于 1 也 叫 Kl 原则 ， 是 研 
究 者 最 常 采用 的 标准 之 一 。 口 解释 方差 总 量 ， 方 差 解释 量 也 是 基于 主 成 分 分 析 法 的 思想 
展 而 来 。 关 于 因子 解释 多 少 总 体 方差 合适 并 没有 统一 的 标准 ， 有 研究 者 认为 因子 
的 方差 总 量 应 不 得 低 于 50%B3]。 例 如 ， 表 1 显示 了 8 条 目 一 般 自 我 效能 感 量 表 的 
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子 分 析 结果 ， 图 中 仅 有 一 个 特征 值 大 于 1 (5.75351) ， 研 究 者 据 此 可 以 认为 一 般 自 我 
效能 感 量 表 是 个 单 维度 的 量 表 ， 仪 包含 一 个 因子 ; 不仅 如 此 ， 表 中 还 显示 了 该 因子 的 
方差 解释 量 (71.91%>50%), 这 意味 着 该 因子 能 够 解释 一 般 自我 效能 感 71.91% 的 变异 ， 
能 较 好 地 反映 一 般 自 我 效能 感 。 口 碎 石 图 , 碎 石 图 提供 了 因子 数 和 特征 值 大 小 的 图 形 表 
示 ， 研 究 者 只 需要 根据 EFA 给 出 的 碎 石 图 选择 出 现 拐点 时 对 应 的 因子 数 即 可 ， 这 种 方 
法 简单 方便 ， 也 更 加 直观 。 图 4 为 一 般 自 我 效能 感 的 碎 石 图 ， 由 图 可 知 ， 在 从 第 一 个 
成 分 开始 ， 特 征 值 产生 了 巨大 转折 ， 因 此 可 将 第 一 个 成 分 视 为 拐点 ， 认 为 该 量 表 仪 包 
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表 1 一 般 自我 效能 感 解 释 的 总 方差 
成 份 切 始 特征 值 提取 平方 和 载 入 


合计 方差 的 % RRA 合计 方差 的 % BR % 


1 5.753 71.910 71.910 5.753 71.910 71.910 
2 515 6.441 78.351 
3 388 4.845 83.196 
4 306 3.829 87.024 
5 .295 3.683 90.708 
6 .276 3.444 94.151 
7 .244 3.055 97.206 
8 224 2.794 100.000 


提取 方法 : 主 成 份 分 析 。 


碎 石 图 
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(4) 因子 旋转 

在 确定 了 因子 个 数 后 ， 下 一 步 就 需要 确定 因子 旋转 的 方法 。 因 子 旋转 的 方法 可 分 
为 两 大 类 : FH (Oblique Rotation) 和正 交 旋转 (Orthogonal Rotation) 。 与 斜 交 
旋转 不 同 的 是 ， 正 交 旋 转 需 要 假设 因子 之 间 无 相关 ， 而 斜 交 旋转 则 并 不 存在 。 就 初级 
保健 领域 内 的 实证 研究 而 言 ， 因 子 之 间 往 往 都 存在 着 或 大 或 小 的 相关 性 ， 因 此 采用 斜 
交 旋 转 更 加 客观 ， 然 而 目前 已 发 表 的 绝 大 多 数 研究 使 用 的 多 是 正 交 旋转 ， 它 的 结果 更 
有 利于 研究 者 对 因子 结构 做 出 解读 ， 但 这 也 容易 对 研究 结论 造成 误导 ， 因 此 ， 我 们 认 
为 未 来 的 研究 者 应 该 先 用 斜 交 旋转 ， 如 果 发 现 因子 见 相 关 较 小 或 没有 相关 时 再 考虑 采 
用 正 交 旋 转 。 表 2 显示 的 是 应 用 promax 和 斜 交 旋转 法 进行 因子 旋转 的 结果 ， 结 果 显 示 ， 
该 量 表 包 含 2 个 因子 ， 其 中 Jh J2 J3, JA J5, J7, J8 属于 因子 1， 而 J6、J9、J10 


属于 因子 2。 


K 2 promax 斜 交 旋转 的 结构 矩阵 


成 份 
1 2 
J1 .889 .145 
J2 .879 .144 
J3 .897 .178 
J4 .895 .146 
J5 .899 .172 
J6 177 .772 
J7 .730 .011 
J8 .704 .083 
J9 .044 .835 
J10 141 .886 


2.6.1.2 信和 度 分 析 

经 历 了 探索 性 因素 分 析 的 剔除 条 目 后 ， 正 式 量 表 己 经 成 型 ， 此 时 还 需要 利用 该 数 
据 检 验 正式 量 表 的 信 度 。 信 和 度 是 指 测量 结果 的 稳定 性 。 如 果 一 个 人 的 同一 种 特质 能 
用 同一 种 测量 工具 反复 测量 ， 那 么 各 种 测量 相互 间 的 吻合 程度 就 称 为 信 度 ， 有 时 也 称 
为 测量 的 可 靠 性 。 在 经 典 测量 理论 中 ， 衡 量 信和 度 方 法 通常 包括 复 本 信 度 、 重 测 信和 度 、 
同 质 性 信和 度 、 分 半 信 度 、 和 评分 者 信 度 。 在 临床 研究 中 ， 由 于 复 本 信和 度 较 难 获得 ， 因 
此 研究 当中 很 少 使 用 这 一 指标 ， 研 究 者 更 倾向 于 使 用 重 测 信 和 度 、 分 半 信 和 度 和 同 质 性 信 
度 。 
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(1) 重 测 信 度 

在 量 表 设 计 类 研究 中 ， 量 表 的 跨 时 间 一 致 性 是 一 个 衡量 测量 工具 可 靠 性 的 重要 指 
标 。 因 此 ， 在 初级 保健 领域 内 进行 量 表 的 开发 和 设计 时 ， 需 要 报告 该 量 表 两 次 对 同一 
组 被 试 施 测 所 得 结果 的 一 致 性 程度 ， 其 大 小 可 用 前 后 两 次 相同 测验 的 皮尔 逊 积 差 相 关 
系数 来 表示 。 如 刘 蔓 等 人 在 编制 中 文 版 老年 人 锻炼 心理 需求 满足 量 表 时 报告 了 该 量 表 
的 重 测 信 度 为 0.883，3 个 维度 的 重 测 信 度 系数 分 别 在 0.829~0.876 之 间 B9。 对 于 测验 
中 的 重 测 信 度 ， 一 般 公 认 的 评价 标准 是 : 0.65~0.70， 最 小 可 接受 值 ，0.70~0.80， 相 当 
好 ; 0.80~0.90， 非 常 好 BI。 因 此 ， 间 荔 等 人 所 编制 量 表 的 重 测 信和 度 较 好 。 但 刘 蓄 等 人 
并 未 报告 两 次 施 测 的 间隔 ， 这 也 是 影响 重 测 信 度 的 重要 因素 ， 在 今后 的 研究 中 应 该 要 
加 以 注意 ， 因 为 随 着 第 二 次 测量 的 时 间 不 同 ， 它 可 以 有 不 同 的 重 测 信 度 ， 

(2) 复 本 信 度 

通过 设计 两 个 平行 测验 来 测量 同一 批 被 试 ， 所 得 结果 的 一 致 性 程度 则 称 为 复 本 信 
度 ， 它 的 大 小 可 使 用 两 个 复 本 测验 上 同一 批 人 测试 的 皮尔 逊 积 差 相 关系 数 来 表示 。 复 
本 信 度 也 是 衡量 量 表 可 靠 性 一 个 指标 ， 但 是 由 于 设计 复 本 测验 费时 费力 ， 同 时 又 很 难 
保证 两 个 测验 在 内 容 和 结果 上 一 致 ， 因 此 ， 其 在 测量 领域 内 却 并 没有 得 到 了 广泛 的 使 
用 。 刘 爱 梅 和 刘 院 斌 在 编制 适用 于 突 发 性 耳 玲 患者 的 健康 知 信行 问卷 时 就 使 用 了 这 一 
信 度 ， 复 本 测验 采用 的 是 采用 内 容 、 应 答 形式 相似 的 问卷 进行 调查 ， 结 果 发 现 健康 相 
关 知 识 部 分 的 复 本 信 度 为 0.88B9， 而 复 本 信和 度 的 评价 标准 与 重 测 信 和 度 基 本 上 保持 一 致 
65， 因 此 ， 该 量 表 的 复 本 信 度 较 好 。 

(3) 分 半 信 度 

也 叫 内 部 一 致 性 系数 , 研究 者 需要 将 一 个 完整 的 测试 分 成 对 等 的 两 半 ， 比 较 参 与 测 
验 的 被 试 在 新 得 到 的 两 组 上 测验 分 数 的 一 致 性 。 分 半 信 度 是 目前 研究 中 使 用 最 多 的 信 
度 之 一 ， 研 究 者 只 需要 在 统计 软件 SPSS 内 进行 简单 操作 即 可 算出 该 量 表 的 分 半 信 度 。 

(4) 同 质 性 信 度 

研究 者 可 通过 测量 测验 内 部 所 有 题 项 彼此 之 间 的 一 致 性 程度 得 到 同 质 性 信和 度 ， 即 
内 部 一 致 性 系数 ,研究 者 一 般 采 用 Cronbach’ s alpha 系数 来 衡量 一 个 测验 的 内 部 一 致 性 。 
alpha 系数 是 目前 研究 中 使 用 最 多 的 信 度 ， 与 分 半 信 度 类 似 ， 研 究 者 只 需要 在 统计 软件 
SPSS 内 进行 简单 操作 即 可 算出 该 量 表 的 alpha 系数 。 吴 明 隆 指出 alpha 系数 最 好 在 0.80 
以 上 ，0.70~0.80 是 可 以 接受 的 范围 ; 分 量 表 最 好 在 0.70 以 上 ，0.60~0.70 是 可 以 接受 的 
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(5) 评分 者 信 度 

由 多 个 评分 者 给 同一 批 人 的 答卷 进行 打分 ， 通 过 计算 得 分 的 一 致 性 ， 可 以 得 到 量 
表 的 评分 者 信 度 。 其 大 小 等 于 一 个 评分 者 的 一 组 评分 与 另 一 个 评分 者 的 一 组 评分 的 肯 
德尔 和 谐 系 数 。 肯 德尔 和 谐 系 数 是 表示 多 列 等 级 数据 相关 程度 的 一 种 量 数 ， 常 用 于 评 
价 多 个 主 评 的 评分 一 致 性 。 
2.6.1.3 效 度 分 析 

在 进行 初级 保健 领域 内 开展 量 表 设计 研究 时 ， 还 应 检验 所 编制 测验 的 效 度 。 效 度 
是 一 个 测试 或 量 表 能 够 测量 它 试 图 测量 的 特征 的 程度 。 效 度 的 理论 定义 是 指 在 与 测量 
目的 相关 的 一 系列 测量 中 ， 真 实 变化 (被 测量 变化 引起 的 有 效 变化 ) 与 总 变化 (真实 变化 ) 
的 比值 。 测 试 效 度 可 分 为 内 容 效 度 、 结 构 效 度 和 经 验 效 度 。 

C1) 内 容 效 度 

内 容 效 度 是 由 相关 专家 对 测评 工具 的 条 目 与 内 容 范 围 的 吻合 度 进 行 详尽 、 系 统 判 
断 。 其 中 参评 专家 的 资质 、 专 业 范 围 是 内 容 效 度 评 估 质 量 的 基本 保障 ， 比 如 崔 楚 云 等 
人 选择 6 名 护理 领域 专家 来 自学 校 和 医院 的 护理 学 教授 、 护 理 部 主任 以 及 临床 护理 
专家 ) 对 量 表 内 容 效 度 进行 评价 ， 因 为 选择 研究 领域 的 教授 或 临床 专家 是 开展 内 容 效 
度 评价 是 最 常见 的 选择 B37。 另外 ， 内 容 效 度 在 条 目 第 选中 的 定量 评估 包括 多 种 指标 计 
算 , 其 中 内 容 效 度 指 数 (content validity index, CVD 由 于 计算 简单 ,易于 理解 和 交流 ， 
可 对 随机 一 致 性 进行 校正 等 优点 得 到 广泛 应 用 : 项 目 水 平 的 内 容 效 度 指数 QI-CVD 可 以 
评估 各 个 项 目的 内 容 效 度 ; 量 表 层面 的 内 容 效 度 指数 (S-CVD 用 于 衡量 整个 量 表 的 内 容 
效 度 。。 例 如 ， 在 完成 冠 心病 病人 二 级 预防 服药 依从 性 问卷 的 初步 编制 后 ， 研 究 者 依 
E Likert 4 级 评分 法 编制 专家 评定 表 ， 选 项 设 定 为 不 相关 、 修 改 否 则 不 相关 、 很 相关 
但 仍 需 修 改 、 十 分 相关 四 级 , 依次 计 为 1 一 4 分 , 发 放 给 专家 作答 , 回收 后 计算 得 出 I- 
CVI 和 S- CVI 均 为 1.00881， 表 明 内 容 效 度 良 好 。 

(2) 结构 效 度 

测验 在 实际 上 上 所 测 到 想 要 测量 的 理论 和 特质 的 程度 即 为 量 表 的 结构 效 度 ， 它 表示 
了 一 份量 表 在 多 大 程度 上 能 够 说 明 测验 理论 的 某 种 结构 或 特质 。 在 实证 研究 中 ， 研 究 
者 一 般 可 以 通过 项 目 分 析 、 探 索性 因子 分 析 以 及 验证 性 因子 分 析 (Confirmatory factor 
analysis, CFA) 来 衡量 一 个 量 表 的 结构 效 度 。 项 目 分 析 是 通过 计算 量 表 各 条 目 与 所 在 
维度 的 相关 和 矩阵 以 及 各 维度 之 间 的 相关 和 矩阵 来 检验 量 表 各 维度 之 间 的 关联 性 与 独立 性 。 
如 杨 丽 等 人 在 认 知 风格 问卷 中 使 用 了 项 目 分 析 来 衡量 量 表 的 结构 效 度 ， 结 果 显 示 项 目 
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与 所 在 维度 的 相关 得 分 均 在 0.55 以 上 ,基本 分 布 在 0.56 到 0.75 之 间 , 问卷 的 项 目 区 分 
度 民 好 ， 认 知 风格 问卷 四 个 维度 之 间 存 在 中 等 相关 ， 说 明 四 个 维度 相互 关联 ， 同 时 相 
对 独立 69。 探 索性 因素 分 析 与 上 节 所 述 基 本 一 致 ， 只 不 过 这 次 不 需要 删 减 条 目 ， 一 般 
来 说 ， 经 历 过 探索 性 因素 分 析 形 成 的 问卷 在 检验 其 结构 效 度 时 应 重新 收取 新 的 数据 ， 
对 新 的 数据 采用 探索 性 因素 分 析 或 验证 性 因素 分 析 来 衡量 。 如 吴 一 波 等 人 在 检验 中 文 
版 杜 克 抗 凝 满意 度量 表 (DASS) 的 信 效 度 时 使 用 AMOS 软件 进行 验证 性 因素 分 析 来 检 


验 模 型 拟 合 ,结果 发 现 各 项 指标 均 显 示 四 因素 的 DASS 模型 拟 合 良好 (CMIN/DF = 1.825 


<5, GFI = 0.854 > 0.85, CFI = 0.938 > 0.9, RMSEA = 0.066 < 0.08, NFI = 0.875 < 0.9, 
TLI = 0.921 > 0.9) ， 量 表 具 备 良 好 的 结构 效 度 [1。 
(3) 实证 效 度 

> 如 果 一 个 测验 能 够 对 处 于 具体 情境 中 的 被 试 的 行为 进行 有 效 的 估计 , 则 称 该 测验 具 
O) 有 良好 的 实证 效 度 或 校 标 关联 效 度 。 效 标 效 度 主要 可 以 通过 以 下 相关 法 、 区 分 法 和 命 
中 率 法 来 进行 衡量 ,而 目前 初级 保健 领域 内 的 量 表 设计 研究 中 使 用 较 多 的 仍 是 相关 法 。 
相关 法 是 测试 成 绩 与 效 度 变 量 之 间 的 相关 程度 。 计 算出 的 相关 系数 为 效 度 系数 ， 效 度 
系数 的 平方 为 效 度 。 如 游 永恒 等 人 就 选取 总 体 幸福 感 量 表 (GWB) 作 为 效 标 来 验证 Beck 
抑郁 量 表 的 同时 效 度 ， 再 发 放 抑郁 量 表 时 同时 要 求 作答 校 标量 表 ， 结 果 发 现 总 体 幸 福 
感 各 个 维度 及 总 分 与 抑郁 总 分 均 有 显著 的 相关 性 (P<0.001) ， 这 表明 BDI 量 表 具 有 
; PENT KI ROR ZUZU, 
Z 2.6.2 基于 Rasch 模型 的 初次 评价 
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© 拉 希 Rasch) 模型 是 一 种 基本 特征 模型 ， 它 通过 个 体 在 某 项 上 的 表现 来 衡量 基本 


特征 。 拉 希 (Rasch)〉 模 型 的 基本 原理 是 ， 一 个 人 在 县 体 题目 上 的 具体 表现 是 由 这 个 人 
的 能 力 和 题目 的 难度 来 衡量 的 ， 因 此 个 体 反应 的 好 坏 完全 取决 于 个 体能 力 和 项 目 难 度 。 
Rasch 模型 是 一 种 理想 化 的 数学 模型 ,因此 Rasch 模型 对 客观 测量 提出 了 两 个 要 求 :(1) 
对 任何 题目 ， 能 力 高 的 个 体 应 该 比 能 力 低 的 个 体 有 更 大 可 能 做 出 正确 回答 ; (2) 任何 
个 体 在 容易 题目 上 的 表现 的 更 好 ， 困 难题 目 上 表现 更 差 吧 ]。 尽 管 Rash 模型 已 经 发 展 
了 数 十 年 时 间 ， 但 该 模型 仍然 没有 引起 足够 的 重视 ， 尤 其 是 在 初级 保健 领域 。 在 “中 
国 知 网 ”(1915 至 2022 年 ) 以 ”Rasch” 为 主题 进行 检索 ， 结 果 只 发 现 了 核心 期 刊 160 
篇 ， 其 中 近 五 年 (2017-2021) 的 研究 占 比 高 达 46.25%， 这 意味 着 近年 来 ，Rasch 模型 
已 渐渐 被 更 多 的 研究 者 注意 ， 然 而 这 些 研 究 仍 然 主要 集中 于 心理 学 、 教 育 学 领域 ， 涉 


及 初级 保健 的 文章 仅 有 寥寥 数 篇 。 因 此 ， 在 初级 保健 领域 内 开展 Rasch 模型 研究 非常 
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2.6.2.1 单 维 性 检验 

项 目 反 应 理论 (IRT) 是 一 种 关于 个 体 回答 问题 的 概率 与 潜在 特质 之 间 关 系 的 数学 表 
述 ， 是 区 别 于 CTT 的 又 一 测量 领域 的 经 典 理 论 。 常 见 的 IRT 模型 包括 单 参数 模型 、 双 
参数 模型 和 三 参数 模型 21。Rasch 模型 作为 IRT 单 参数 模型 的 一 个 特例 , 它 的 使 用 有 一 
个 前 提 ， 那 就 是 量 表 具有 单 维 性 。 单 维 性 是 指 测量 过 程 中 有 且 仅 有 一 种 潜在 特质 影响 
被 试 作答 。 在 这 里 需要 注意 的 是 ， 一 种 潜在 特质 并 不 意味 着 该 量 表 只 能 有 一 个 维度 ， 
只 要 量 表 中 的 各 个 维度 都 指向 同一 种 特质 即 可 。 如 陈 圆 圆 等 人 在 汉化 营养 素养 评价 工 
具 发 现 该 工具 包含 6 个 分 量 表 ， 但 分 量 表 中 包含 的 条 目 都 要 指向 营养 素养 这 一 特质 ， 
于 是 她 们 针对 分 量 表 和 全 量 表 均 做 了 Rasch 分 析 中 ]。 一 般 采 用 Rasch 模型 残 差 主 成 分 


ra 分 析 法 (PCA ) 检 验 量 表单 维 性 , 根据 Raiche 的 建议 , 首 因子 残 差 标准 化 特征 值 在 (1.4 一 
(Le) 
D> 2.1) 之 间 即 可 认为 该 数据 满足 单 维 性 的 要 求 ， 适 合 Rasch 模型 [31]。 如 陈 圆 圆 等 人 在 进 
CN 
© 行 汉化 营养 素养 评价 工具 过 程 中 进行 单 维 性 检验 发 现 分 量 表 1 ~ 6 的 首 成 分 残 差 特征 值 


分 别 介 于 1.6-1.8 之 间 ， 总 量 表 的 首 成 分 残 差 特征 值 是 3.1， 这 意味 着 该 量 表 适合 进行 
Rasch 分 析 [431。 
2.6.2.2 模型 拟 合 度 

从 怀特 图 中 ， 我 们 得 知 Rasch 模型 能 够 估计 项 目的 难度 和 被 试 的 能 力 水 平 ， 通 过 
将 实际 的 观测 分 数 与 每 个 被 试 在 每 个 项 目 上 答对 的 理论 概率 进行 比较 , 即 可 评估 Rasch 
模型 的 拟 合 情 况 。Rasch 模型 通常 需要 计算 两 个 拟 合 指标 : 加 权 均 方 拟 合 统计 量 (Outfit 
Mean Square,Infit MNSQ) 和 非 加 权 均 方 拟 合 统计 量 (Outfit Mean Square,Infit MNSQ), 
Infit MNSQ 5 Outfit MNSQ 接近 于 1 表示 模型 拟 合 效果 好 。 一 般 认 为 ， 当 数据 拟 合 恨 
好 时 ，Outfit 和 Infit 的 MNSQ 在 0.5~ 1.5 之 间 [ 约 。 以 生活 满意 度量 表 为 例 ， 我 们 收集 
了 569 份 数 据 ， 使 用 R 进行 模型 拟 合 度 检验 ,结果 见 表 3。 由 表 3 可 知 ， 所 有 项 目的 参 
数 基本 都 在 可 接受 范围 内 ,说 明 数 据 与 模型 达到 了 很 好 的 拟 合 。 题 目 5 (如 果 我 能 重新 
活 过 ， 差 不 多 没有 东西 我 想 改变 ，1= 不 同意 ，2= 有 些 不 同意 ，3= 中 立 ，4- 有 些 同意 ， 
5= 同 意 ) 的 Outfit MNSQ 和 Infit MNSQ 参数 值 分 别 为 1.52 和 1.40, A 5 AY Infit MNSQ 
和 outfit MNSQ 参数 值 均 大 于 1.0， 这 意味 着 有 较 高 生活 满意 度 的 人 选择 了 低 分 ， 即 不 
同意 和 有 些 不 同意 ， 而 有 着 较 低 生活 满意 度 的 人 选择 了 高 分 ， 即 同意 和 有 些 同意 。 因 
此 , 题目 5 在 区 分 被 试 生活 满意 度 时 误差 较 大 , 需要 进一步 考虑 是 否 需 要 保留 该 条 目 。 


表 3 生活 满意 度量 表 的 模型 拟 合 参数 
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Chisq df p-value Outfit MNSQ Infit MNSQ Outfitt Infitt 


Iteml 343.86 538 1 0.64 0.63 -6.99 -7.10 
Item2 324.13 538 1 0.60 0.60 -7.89 -7.86 
Item3 307.71 538 1 0.57 0.59 -8.59 -8.26 
Item4 496.31 538 0.90 0.92 0.91 -1.36 -1.54 
Item5 817.96 538 0 1.52 1.4 7.21 5.90 


此 外 ， 一 个 较 好 的 项 目 或 量 表 应 该 能 够 为 测试 提供 较 多 的 信息 ， 降 低 对 被 试 特质 

水 平 估计 方面 的 误差 。 项 目 反 应 理论 认为 ,用 与 被 试 特质 水 平 相当 的 量 表 进行 测试 时 ， 
量 表 才 能 提供 最 精准 的 测量 结果 。 在 研究 中 ， 一般 采用 测试 信息 曲线 进行 测量 ， 它 可 
以 反映 当 不 同 特征 水 平 的 被 试 完成 完整 量 表 的 所 有 项 目 时 ， 量 表 整 体能 提供 准确 评价 

的 程度 。 其 中 项 目的 难度 可 参见 横 坐 标 , 代表 了 被 试 的 特质 水 平 ， 每 个 刻度 代表 一 个 

logit 单位 ， 纵 坐标 代表 信息 量 ， 即 Fisher 信息 函数 031]。 图 5 是 生活 满意 度量 表 的 测验 

in 音 妨 曲线 图 ， 其 中 上 半 图 是 各 个 条 目的 测验 信息 曲线 ， 下 半 图 是 总 量 表 的 测验 信息 曲 
S 线 。 总 体 而 言 ， 该 量 表 在 生活 满意 度 估 计 值 在 0~2 之 间 时 准确 率 最 高 ， 能 为 中 、 高 生 
活 满意 度 的 被 试 提供 最 大 的 信息 。 例 如 , Fes IRA SK Tl SE ETE Fisher 信息 函数 后 发 现 ， 
自尊 的 估计 值 在 0~ -2 之 间 ,， 可 以 提供 最 高 的 测量 精度 ,为 中 、 低 自尊 被 试 提供 最 多 的 
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图 5 生活 满意 度 的 测验 信息 曲线 
2.6.2.3 信 度 


Rasch 模型 以 分 隔 信 度 (Person separation reliability, PSR) 衡量 量 表 信 和 度 ， 分 隔 信 


度 可 以 通过 计算 个 体 所 产生 “真实 "变异 与 总 变异 的 比例 得 出 ， 
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通常 用 于 考察 受 试 者 在 


项 目 评定 上 的 可 靠 性 程度 (31。Rasch 模型 测量 的 总 体 信 度 是 通过 计算 个 体 水 平 上 的 解释 
率 得 到 的 ， 其 值 从 0 到 1。 一 般 情况 下 ， 可 靠 性 指标 在 0.7 以 上 为 可 接受 ，0.8 以 上 为 


2.7 量 表 的 再 次 评价 


从 第 一 步 到 第 六 步 ， 一 个 量 表 基 


A 
检验 均 是 采用 同一 份 样本 ， 该 量 表 是 否 


展 好 四。 经 计算 获得 ， 生 活 满意 度量 表 的 信和 度 值 为 0.80， 信 度 较 好 。 


上 已 经 成 型 。 但 由 于 量 表 条 目的 得 选 和 信 效 度 
具有 跨 样 本 和 跨 时 间 的 一 致 性 仍然 是 未 知 的 。 


因此 ， 研 究 者 应 该 使 用 正式 量 表 重 新 收集 一 个 新 的 样本 ， 检 验 该 量 表 在 新 样本 上 的 信 


度 与 效 度 。 当 然 ， 需 要 注意 的 是 ， 如 果 研 究 者 需要 检验 该 量 


比 量 表 的 被 试 中 就 应 该 包含 一 部 分 第 一 批 施 测 的 对 象 。 由 于 信 效 度 分 析 的 相关 内 容 已 


ot 


的 重 测 信 和 度 ， 那 么 第 二 


经 在 前 一 节 中 冰 述 过 ， 研 究 者 只 需要 使 用 相同 的 方法 再 次 检验 即 可 ， 便 不 过 多 效 述 。 


Xe 


验证 性 因素 分 析 是 指 在 明确 了 观测 指标 和 潜在 


里 仅 对 经 典 测量 理论 中 使 用 验证 性 因素 分 析 检 验 量 表 结构 效 度 的 方法 进行 阐述 。 


因子 之 间 隶 属 关 系 的 前 提 下 进行 的 


假设 检验 ， 是 理论 驱动 型 分 析 。 在 经 历 了 探索 性 因素 分 析 以 后 ， 我 们 明确 了 正式 量 表 
的 因子 结构 , 因此 , 可 以 利用 新 数据 构建 验证 性 因素 分 析 模 型 来 检验 量 表 的 结构 效 度 。 
再 根据 输出 结果 的 拟 合 状况 考虑 是 否 需 要 进行 模型 修正 。 主 要 选用 的 拟 合 指标 包含 卡 
方 自由 度 比值 (x2/df) 、 适 配 度 指数 (GFI) 和 调整 拟 合 优 度 指数 (AGFD 、 渐 进 残 差 
均 方 和 平方 根 (RMSEA) 以 及 标准 拟 合 指数 NFD 、 增 量 拟 合 指 数 (IFD 、 相 对 拟 合 


指数 (RFD 、 相 对 拟 合 指 数 (CFI) ~ Tucker- Lewis 指数 (TLD 等 。 这 些 参 数 的 适 配 


标准 为 :x2/df<2 时 (也 有 研究 者 认为 x2/df<3) 


从 而 达到 对 优化 模型 的 目的 。 
3 讨论 


量 表 设 计 类 方法 在 初级 保健 领域 内 得 到 了 充分 地 运用 ， 
究 的 使 用 广度 上 。 目 前 绝 大 多 数 研究 中 都 涉及 量 表 的 使 用 ， 因 


开发 是 否 合理 便 决定 了 该 研究 是 否 可 靠 。 
的 地 方 ， 如 信 效 度 较 差 、 缺 乏 关 键 步 又 、 


这 


， 表 示 假 设 模型 的 适 配 度 较 佳 31。 


RMSEA<0.08， 意 味 着 模型 尚 可 接受 吕 。AGFI 与 GFI 均 应 >0.90, 表示 模型 与 数据 有 着 


R W Ag E El, NFI, RFI, IFI, TLI, CFI 均 应 大 于 0.90[49]。 如 果 这 些 拟 合 值 数 未 
达到 较 好 的 适 配 标 准 ， 研 究 者 则 应 考虑 对 模型 ; 
呈现 的 MI 值 ， 释 放 两 个 测验 误差 变量 彼此 之 间 的 关系 , 即 在 其 之 间 建 立 共 变 关系 046]， 


行 修正 ， 有 具体 做 法 是 利用 AMOS 报表 


主要 体现 在 量 表 设计 研 
此 ， 一 个 量 表 的 设计 与 


而 目前 关于 量 表 设 计 研 究 仍 存在 较 多 不 规范 


统计 错误 等 问题 。 


总 的 来 说 ， 在 初级 保健 领 


作 期 刊 


ninax iva (EBA FI 


域内 开展 量 表 设 计 类 研究 需要 严格 按照 上 述 标准 流程 进行 ， 这 在 一 定 程度 上 能 够 解决 
究 过 程 中 步骤 和 统计 方法 使 用 不 规范 的 情况 。 当 然 ， 为 了 更 好 地 掌握 这 种 方法 ， 有 
些 必需 技能 也 是 需要 注意 的 。 

量 表 设 计 类 研究 所 需要 的 必要 技能 主要 包括 理论 指导 和 统计 检验 。 理 论 指 导 是 自 
上 而 下 的 加 工 ， 是 理论 驱动 的 过 程 。 理 论 指导 要 求 研究 者 在 开发 量 表 前 期 和 中 期 一 
要 阅读 大 量 相关 文献 ， 了 解 所 需要 测量 特质 的 结构 以 及 现 有 理论 和 量 表 ， 只 有 在 这 些 
成 熟 的 前 人 经 验 的 基础 之 上 ， 才 能 尽 可 能 确保 所 编制 量 表 的 有 效 性 。 而 统计 检验 是 自 
下 而 上 的 加 工 ， 是 数据 驱动 的 过 程 。 统 计 检 验 可 以 帮助 研究 者 更 好 地 发 现 项 目 编制 过 
程 中 存在 的 问题 ， 同 时 也 是 研究 者 筛选 不 好 条 目的 重要 参照 。 研 究 者 通过 统计 学 来 检 


EM 


验 量 表 的 信 度 和 效 度 ， 以 此 来 保证 这 一 量具 的 客观 与 有 效 。 综 上 ， 理 论 指导 和 统计 检 

2 验 是 量 表 设计 类 研究 中 两 项 必需 的 技能 ， 只 有 将 这 两 者 很 好 地 结合 起 来 ， 从 自 下 而 上 
o> 的 自 上 而 下 的 角度 一 起 考虑 ， 才 能 在 最 大 程度 上 保证 所 设计 测量 工具 的 可 靠 性 。 

S 本 研究 较为 系统 地 图 述 了 如 何在 初级 保健 领域 内 开展 量 表 设 计 ， 但 由 于 篇 幅 和 志 

i 业 性 的 限制 ， 使 得 一 部 分 的 临床 医生 可 能 很 难 理解 文中 出 现 的 专业 术语 ， 不 仅 如 此 ， 


可 能 对 于 大 多 数 全 科 医 生来 讲 ， 如 何 选取 一 个 合适 的 量 表 比 设计 一 个 量 表 更 为 直接 有 
效 。 为 此 ， 我 们 在 附件 中 提供 了 文中 出 现 的 一 些 专业 词汇 的 解释 以 及 全 科 医 生 应 该 如 
何 选取 量 表 的 相关 建议 。 此 外 ， 本 研究 还 为 研究 者 提供 了 继续 深入 学 习 量 表 设 计 类 

法 的 学 习 资 源 清单 ， 见 表 4。 总 的 来 说 ， 研 究 者 在 开展 量 表 设计 时 需要 严格 遵守 标准 流 
程 ， 在 具体 步骤 中 可 参照 清单 中 的 相关 资料 ， 这 样 就 能 确保 所 设计 量 表 的 客观 有 效 。 


序号 人 者 名称 出版 社 条 志 AA 
R 语言 - 量 表 编制 、 统 计 分 析 


YR AN 2R 由 经 =a tE i pir 
1 陈 新 丰 与 试题 反应 理论 东北 财经 大 学 出 版 P$ 

罗伯特 -F. 德 : = 
2 量 表 编 制 : FSR 重 学 i i gi 
威 利 其 量 表 编 制 : 理论 与 应 用 庆 大 学 出 版 社 iF 

= 医学 量 表 的 编制 与 评价 : E a ; 
3 vals: ` AN 学 医学 T 4 籍 
ue 论 、 方 法 与 实例 操作 0 
简 小 珠 & 戴 SPSS23.0 统计 分 析 在 心理 学 

4 京师 范 大 学 社 1 8 
布 二 与 教育 学 中 的 应 用 北京 师范 大 学 出 版 BEE: 

结构 方程 模型 一 一 AMOS 的 = 
5 ZH 重 T f i $e 
吴 明 隆 操作 与 应 用 重庆 大 学 出 版 社 BEE: 
6 王 孟 成 潜 变 量 建 模 与 Mplus 应 用 重庆 大 学 出 版 社 书籍 
. The Handbook of is 
7 Kline, & Paul. Routledge 书籍 


Psychological Testing 


Office of Measurement 


and Research Service 


Robert B. A Brief Guide to oe . 
8 . . Virginia Polytechnic ME 
Frary Questionnaire Development : 
Institute and State 
University 
R. Noah Measurement: 
Padgett & Using the eRm Package for Interdisciplinary fod 
Grant B. Rasch Modeling Research and a 
Morgan Perspectives 
Baghaei, Introduction to the Rasch 
10 Purya&Doebl Poisson Counts Model: An R Psychological Reports 文章 
er, Philipp Tutorial 
4 结论 


总 之 ， 我 们 为 有 兴趣 在 初级 保健 领域 内 开发 或 设计 量 表 的 研究 人 员 概述 了 实用 步 
又 与 统计 方法 。 我 们 建议 所 有 在 初级 保健 领域 内 进行 量 表 设 计时 都 应 考虑 本 综述 中 
e 述 的 方法 ， 研 究 者 应 严格 按照 量 表 编 制 的 标准 步 又 ， 综 合 使 用 Rasch 模型 和 因素 分 析 
= 的 方法 ， 将 会 使 测量 的 结果 更 加 客观 。 


ffin] 


C 作者 贡献 王 飞 提 出 研究 选 题 方向 ， 负 责 数据 处 理 ， 并 撰写 论文 初稿 ， 汤 靖 琪 参与 了 论 
= 文 初稿 的 撰写 并 进行 了 数据 管理 ， 孙 小 楠 负责 论文 的 修订 ， 孙 昕 去 对 文章 提出 了 批判 
性 的 建议 ， 黎 俊 则 从 全 科 医 生 的 视角 对 文章 进行 了 修改 和 完善 ， 备 星星 和 吴 一 波 全 程 
指导 了 该 研究 ， 并 负责 文章 的 质量 控制 及 审 校 ， 对 文章 整体 负责 ， 所 有 作者 确认 了 论 
[= 文 的 最 终 稿 。 
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